在 IID 采样的假设下, 每个实验单元有四个随机变量 . 我们可以分解为 这里
- 是协变量分布;
- 是在 条件下的结果分布;
- 是在 条件下的实验处理分布, 也叫实验分配机制.
一般来说我们不想为协变量建模, 因为它们是在实验处理和结果之前就存在的背景信息. 如果我们要在结果模型外更进一步, 就需要关注实验分配机制.
定义 为 倾向得分 (propensity score). 在 强可忽略性 下, 它表示观察到协变量后, 接受实验处理的条件概率.
1 倾向得分作为降维工具
1.1 理论介绍
如果 , 则 .
定理说明了在 上的条件可以去除 带来的所有混杂性; 将取值从 的多维压缩到 上的一维值.
我们只需证明 而左边为 右边为
1.2 倾向得分分层
定理 1.1 启发我们考虑倾向得分分层. 我们从简单的情形开始, 假设倾向得分的取值在 中, . 则定理 1.1 变为 因此我们有一个 SRE: 个独立的 CRE.
一般来说, 倾向得分是未知且非离散的. 我们可以拟合一个 的模型 (例如 的 Logistic 模型) 来获取 . 例如取各个分位数 :
关于 的取值, 小的话精度不够, 大的话每层数据不够, 一般来说取 比较合适.
2 倾向得分加权
2.1 理论介绍
如果 以及 , 则 以及
注意到强可忽略性 同理可证 .
从这个定理看出, 仅需一个权重 (也称它为 重合度), 就可以通过总体来得到不同组的期望.
2.2 逆倾向得分加权估计量
受定理 2.1 启发, 我们用下面的估计量来估计平均因果效应 这里 是估计的倾向得分. 我们把它称为逆倾向得分加权估计量 (Inverse propensity score weighting, IPW), 也被称为 Horvitz-Thompson (HT) 估计量. 当然它有很多问题:
如果改变 为 , 则 变为 , 这里 可以看作两个 的估计量.
通常来说在有限样本下 , 尽管它们的期望是. 这个命题就说明 HT 估计量并不合理, 因为所有结果都加了 , 因果效应不应该关于 改变. 一个简单的修复就是对 进行标准化: 它在 下不会改变, 并且实验证明在有限样本下它比 更稳定.
2.3 的一个问题
很多渐近分析要求强重合度条件: 也就是真正的倾向得分被严格控制在 之间. 不过这是一个相当强的假设. 即使它成立, 估计出来的倾向得分也会接近 或 . 此时加权估计量会直接趋于无穷, 因此在有限样本中相当不稳定. 我们可以进行截断 , 或者将 超出 的单元去掉. 一般来说可以取 或者 .
3 倾向得分的平衡特性
3.1 理论介绍
倾向得分满足 . 此外, 对于任何函数 , 我们有 (前提是确实良定).
这个定理不要求可忽略性, 只关于 . 它说明了在 下我们可以将两个总体拉到互相平衡, 是个很好的结果.
首先证明 , 也即 类似 定理1.1的证明, 我们能证明左边是 , 右边是
然后证明 (3.1). 将 看作一个结果, 它有两个相同的潜在结果, 可忽略性 成立. 根据 定理2.1, (3.1) 左右两边的区别是 在 上的平均因果效应, .
3.2 检查协变量的平衡性
在拿到结果前, 我们都要检查是否倾向得分模型足够合理, 让协变量在数据中平衡.
在倾向得分分层中, 我们用了 : , , 因此我们能检查协变量分布在不同倾向得分分层的实验/对照组中是否相同.
在加权中, 我们可以把 看作一个假结果, 并估计 下的平均因果效应. 因为真正的 上的平均因果效应为 , 估计结果不能显著远离 . 一个典型的取法是 .